与往年相比,第39届ACM信息检索大会(the 39th Annual International ACM-SIGIR Conference on Research and Development in Information Retrieval, SIGIR 2016)研究论文的排序优化、搜索评价以及用户行为分析等研究方向依然保持着较高的关注度,在全部21场技术论文报告会(session)中,搜索评价和用户行为分析均有两场。在用户行为分析方面,对用户搜索行为认知的理解不再局限于简单的鼠标行为(如点击通过率)的分析,而是更深层次地理解用户行为背后的信息需求。例如本次大会最佳论文“Understanding Information Need: an fMRI Study”就是利用脑电波来分析用户搜索过程中脑部的感知活动,进而探究用户搜索行为与信息需求之间的关系。这是来自英国格拉斯哥大学(University of Glasgow)墨斯菲尼(Yashar Moshfeghi)、崔安特菲勒(Peter Triantafillou)、波利克(Frank E. Pollick)等人的工作。该论文从全新的视角探究了用户在信息检索过程中的信息需求:借助磁共振成像技术分析用户需求与大脑活动之间的联系。他们发现大脑存在相关的活动区域与信息需求和检索密切相关,并且用户知道指定问题的答案和不知道问题答案时的脑部活动是有较大差异的。这也是首次从生理层面论证了信息需求对用户脑部活动的影响,为进一步理解和研究用户在检索过程中的信息感知和搜索策略提供了理论和技术支持。正是这些研究论文的发表,形成了大会特色。
与往年不同的是,本届大会中涉及深度学习方面的论文比例有着较为明显的增加,而且报告会场数也由2015年的一场增加到了两场,由此可见深度学习在信息检索领域的应用正受到越来越多研究人员的重视。在大会主题报告中,著名的斯坦福大学教授克里斯托弗·曼宁(Christopher Manning)就指出,深度学习在继语音、计算机视觉以及自然语言方面取得突破之后,下一个突破将发生在信息检索领域。由此可以预见,如何在信息检索领域应用和发展深度学习方法将会是未来研究的热点。在社交媒体方面,本届会议增加了对微博的专题讨论,主要针对短文本内容进行模型的构建与评估。其中来自武汉大学的论文“Topic Modeling for Short Texts with Auxiliary Word Embedding”获得了此次会议的最佳学生论文提名奖。
值得关注的是,本届会议无论是投稿数量还是录取论文数量相比往年都有不同程度的下降,这也引起了与会人员的讨论的关注,正如ACM信息检索专委会(SIGIR)主席查理·克拉克(Charlie Clarke) 在卸任的告别信中提到:“我们的大会正在衰退(in decline)”。本届会议共收到了341篇长文投稿,而在2011年投稿论文数量达到峰值543篇以后,SIGIR会议的投稿量一直下降。而与之相反,其他同类会议,如KDD、CIKM、WSDM1等,收到的论文数量依然保持较高的水平,甚至有所增加。针对会议投稿量下降,一些研究学者提出了自己的看法。其中,很多研究学者认为SIGIR会议范围过于保守是导致会议投稿量连续下降的一个重要原因。会议过于关注信息检索领域,强调 Ad-hoc 搜索、正式的模型和相关的价值,错过一些涉及其他领域的研究趋势,使得投稿范围不断缩小。而且严格的实验标准以及过于强调论文的突破性,让许多论文作者望而却步,这也是会议投稿量下降的一个重要原因。此外,同类型的信息检索会议也会对SIGIR的投稿量分流。当然,仅凭近几年的投稿量来判断会议衰退是远远不够的,根据商务会议(Business meeting)的报告,近几年的SIGIR会议财务状况一直是稳中有升,足以可见工业界对会议依然保持着较高的热情和关注,而且从今年的会议安排以及主题讨论中可以看到会议委员会也在积极地做出尝试和调整,SIGIR会议的未来依然值得关注和期待 。
SIGIR 2016于2016年7月17~21日在意大利文化名城比萨召开。SIGIR被公认为信息检索领域最著名也最具权威的国际学术论坛,大会研究论文所反映的研究热点在一定程度上可以作为信息检索领域发展趋势的晴雨表,具有较强的指导意义。本次大会共收到来自全球24个国家和地区的341篇论文投稿,录用62篇。以论文第一作者所属机构统计,中国大陆学者在本届大会共发表了12篇论文。
主题报告
本届大会邀请了克里斯托弗·曼宁和维平·库马尔(Vipin Kumar)两位在学术界和工业界有较高声誉与影响力的学者作大会主题报告。
克里斯托弗·曼宁现担任斯坦福大学计算机科学和语言学教授,同时是ACM会士、国际人工智能学会会士(AAAI Fellow)以及国际计算语言学协会会士(ACL Fellow),长期致力于机器学习和计算语言学的研究。在大会的主题报告中,曼宁分析了信息检索和自然语言理解之间的联系。他指出,信息检索的目标是理解用户需求并找出相关的文档来满足用户的需要,而这个语义理解的过程与自然语言处理是相通的,即理解问题以及文档含义并构建与之相对应的关联关系,并详细介绍了自然语言处理中理解文本语义的方法,包括词汇嵌入(word embedding)等新一代分布式词语表征工具,并重点阐述深度学习在自然语言研究中的应用。他指出,深度学习不但可以帮助我们理解人类语言表达的结构,同时也能在理解语义上起到一定的作用。
维平·库马尔是明尼苏达大学计算机科学与工程系教授,同时也是 ACM会士、IEEE会士以及美国科学促进会会士(AAAS Fellow)。他在数据挖掘、高性能计算以及气候生态应用方面有着丰富的研究经验,主持由美国国家科学基金会(NSF)支持的长达5年1000万美元的研究项目“Understanding Climate Change – A Data Driven Approach”(理解气候变化——数据驱动方法研究)。在本次大会的主题报告中,他介绍了数据挖掘和机器学习在气候和生态环境研究中的应用以及最新进展,包括森林火灾的预测、气候的预测等等,并探讨了在大量数据变得可用的背景下,机器学习面临的机遇与挑战。
未来展望
随着人工智能技术的不断发展,近年来SIGIR所涉及的研究论文领域分布也发生了明显的变化。从近年来大会录取论文的侧重点可以看到以下几个趋势:
首先,随着个性化搜索的发展,搜索系统性能的评估不再局限于排序文档是否相关等静态指标,而是更多地关注用户个体的实际体验。对于某个特定的查询,不同的用户可能会对搜索文档的喜好程度存在着较大的差异,这就使得评价指标需要根据用户的喜好程度动态地进行建模和评估,近年来大会中许多录取论文纷纷尝试使用用户满意度(satisfaction)、有用度(usefulness)等动态指标来评估检索系统的有效性。
其次,搜索平台不再局限于传统的电脑桌面端,基于移动设备的搜索系统研究成为研究热点。随着智能手机的普及,移动互联网的发展给信息检索领域带来了新的机遇与挑战,比如移动搜索不再仅仅是文本的输入,还包括大量的位置搜索、语音搜索,这都是区别于传统桌面终端的新问题,也是信息检索领域未来发展的一个很重要的方向。
此外,深度学习技术的应用为信息检索领域带来新的机遇,从今年大会对深度学习的重视程度可见一斑。尽管深度学习技术在语音、图像处理以及自然语言理解中取得了许多可喜的成绩,但如何在信息检索领域得到应用和突破依然需要探索和研究,这也是信息检索领域面临的一项重要挑战。
所有评论仅代表网友意见